Le but du Projet du 2e semestre est de traiter le corpus des fils RSS du journal Le Monde automatiquement.
Il s'agit de traiter le corpus des fils RSS du journal Le Monde automatiquement.
Pour cela, il faut parcourir l'arborescence du corpus (toute l'année 2012), en récupérant, pour chaque rubrique, le titre et la description des fils qui seront présentées ensuite dans un tableau grâce au XML. Deux méthodes sont possibles, en perl pur et dur ou à l'aide de modules spécialisés (XML::RSS, XML::XPath, XML::LibXML)
À partir des fichiers obtenus dans la BàO1, il faut étiqueter chaque token pour obtenir sa forme, son lemme et sa catégorie grammaticale.
Pour cela, 2 outils : Cordial (windows) à la main ou Tree-Tagger intégré à un script.
La sortie est un tableau présentant ces résultats en couleurs.
Sur ces fichiers dument étiquetés, le but est d'extraire des patrons : Nom Prep Nom par exemple, ou Adj Nom.
Et ce, soit sur les sorties Cordial brutes,
Soit sur les sorties XML étiquetées par Tree-tagger à l'aide XML::XPath.
Soit sur les sorties XML étiquetées par Tree-tagger par une requête XPath couplée avec une feuille de style XSLT.
Présenter les patrons obtenus précédemment sous forme de graphes.
Soit à l'aide du Trameur, soit à l'aide de patron2graph.exe.